Análisis Univariado y Bivariado

Column

Comentarios

Histograma: Se puede apreciar desde el valor mínimo al máximo, la media y la desviación típica.

  • Min.: 7.7000000
  • Median: 17.3000000
  • Mean: 18.6120000
  • Max.: 40.5000000
  • Sd.: 8.2596065

Boxplot: No existen datos atípicos.

Bivariado: Después de realizar la correlación Pearson, se conluyó que las variables “porcentaje_mujeres”, “porcentaje_jovenes” e “IDH” tengan un efecto fuerte en la variable dependiente.

Column {data-width=600}

Histograma

Boxplot

Bivariado

Pearson

$estimate
       cor 
-0.1755666 

$p.value
[1] 0.01384116
$estimate
       rho 
-0.2961951 

$p.value
[1] 2.495754e-05

Regresión Lineal

Column

Comentarios

#Interpretación RL1: El porcentaje de mujeres votantes SÍ tiene efecto y es significativo, por lo que, tiene una relación directa siendo controlado por el porcentaje de pobreza extrema.

#Interpretación RL2: El porcentaje de jovenes no tiene significancia en los votos por Castillo.

#Interpretación RL3: Añadimos la variable IDH y todas las variables son significativas con el porcentaje de votos por Castillo. Para saber cuál tiene mayor impacto, estandarizamos los coeficientes.

#Interpretación Anova, el modelo3 es el mejor.

Column {data-width=600}

Regresión 1

Regresion: modelo 1
 VotosCastillo (I)
(Intercept) -0.730**
(0.255)
porcentaje_mujeres 0.020***
(0.005)
Porc_PE 0.007***
(0.001)
Num.Obs. 196
R2 0.285
R2 Adj. 0.278
AIC -164.8
BIC -151.7
Log.Lik. 86.422
F 38.547
RMSE 0.16
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Regresión 2

Regresion: modelo 2
 VotosCastillo (II)
(Intercept) -0.573*
(0.279)
porcentaje_mujeres 0.019***
(0.005)
porcentaje_jovenes -0.004
(0.003)
Porc_PE 0.008***
(0.001)
Num.Obs. 196
R2 0.292
R2 Adj. 0.281
AIC -164.7
BIC -148.3
Log.Lik. 87.369
F 26.434
RMSE 0.15
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Regresión 3

Regresion: modelo 3
 VotosCastillo (III)
(Intercept) -0.169
(0.287)
porcentaje_mujeres 0.020***
(0.005)
porcentaje_jovenes -0.008**
(0.003)
IDH -0.611***
(0.151)
Porc_PE 0.004*
(0.001)
Num.Obs. 196
R2 0.348
R2 Adj. 0.334
AIC -178.8
BIC -159.2
Log.Lik. 95.423
F 25.501
RMSE 0.15
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Comparando modelos

Tabla ANOVA para comparar modelos
Res.Df RSS Df Sum of Sq F Pr(>F)
193 4.751105 NA NA NA NA
192 4.705411 1 0.0456946 2.013672 0.1575174
191 4.334202 1 0.3712081 16.358432 0.0000760

Linealidad

#Interpretación: La falta de linearidad provocaría que el modelo no sirva para explicar las mismas variables con datos diferentes en otros estudios.

Homocedasticidad

#Interpretación: Se rechaza que el modelo muestre homocedasticidad.

Normalidad de los residuos

#Interpretación: Se rechaza la normalidad de los residuos. Por lo tanto, porcentaje de votos se distribuye de manera normal y se puede realizar inferencias a partir de lo encontrado como interpretaciones sólidas y confiables en base a resultados.

No multicolinealidad

Evaluando Multicolinealidad usando VIF (Variance Inflation Factors)
VIF
porcentaje_mujeres 1.046401
porcentaje_jovenes 1.298750
IDH 2.627061
Porc_PE 2.330429

#Interpretación: no existe multiconealidad alta entre los predictores y permite calcular bien el efecto de cada regresor.

Valores influyentes

#Interpretación: Ningún número afecta el cálculo de la regresión.


Análisis Factorial (EFA)

Column

Comentarios

En el gráfico se puede apreciar que las variables tienen baja correlación con las demás por lo que se sospecha que el análisis no sea efectivo.

Se espero que las variables independientes cumplan los requisitos: Overal MSA, Bartlett y singular.matrix para poder continuar con el análisis.

Sin embargo, se puede observar que el KMO es >0.6, por lo que se podría continuar pero no se lograría el resultado esperado.

Column {data-width=600}

Gráfico A

Requisitos

Kaiser-Meyer-Olkin factor adequacy
Call: psych::KMO(r = corMatrix)
Overall MSA =  0.57
MSA for each item = 
porcentaje_mujeres porcentaje_jovenes                IDH            Porc_PE 
              0.43               0.68               0.55               0.56 
[1] FALSE
[1] FALSE

#Conclusión: No saldrán los resultados esperados ya que no cumple con todos los requisitos.

Clusterización

Column

Comentarios

PAM: El análisis recomienda dos clusters y se señalan las provincias mal clusterizadas.

Agnes: Al momento de usar la función: #fviz_silhouette(res.agnes,print.summary = F). No permite continuar con el análisis porque no permite un operador unitario. Por lo tanto, queda ahí el análisis.

Diana: Se presenta dos clusters pero no existe alguna provincia mal clusterizada.

Column {data-width=600}

Grafico A

#Datos seleccionados

Grafico B

#Las variables están estandarizadas y las guardamos

Grafico C - PAM

#Nos recomienda dos clusters.

Verificar la clusterización

#Provincias mal clusterizadas: “BONGARA”, “CAJATAMBO”, “HUAMANGA”, “JAEN”, “LAMPA”, “SANDIA”, “UTCUBAMBA”.


Grafico D - AGNES

#Un cluster

Dendograma

#Mientras más corta sea la distancia mayor similitud y la conglomeración es más rápida. No valido para un operador unitario

Grafico E - DIANA

Dendograma - Diana

Silhouettes Diana

#Sin provincias mal clusterizadas.

Grafico PAM - Mal clusterizados

Grafico DIANA - Mal clusterizados